强化学习如何因果化?看最新《因果强化学习》综述论文,39页pdf
数据本身不能回答因果问题。理解因果关系涉及对数据生成过程进行假设和测试。数据驱动的机器学习可以有效地捕捉柑橘类水果和坏血病之间的相关性,但无法处理因果关系。例如,如果在坏血病预测问题中,我们将柑橘类水果替换为动物肝脏(也富含维生素C),由于外观和味道的显著差异,算法可能会给出错误的预测。因果机器学习(Schölkopf et al., 2021;Kaddour et al., 2022)是为了解决这一缺陷而开发的。近年来,因果关系与机器学习的结合受到了广泛关注,并被应用于各个领域,包括计算机视觉(Lopez-Paz et al., 2017;沈等,2018;Tang等人,2020;Wang et al., 2020b),自然语言处理(Wu et al., 2021;Jin等人,2021;Feder等人,2022)和推荐系统(Zheng等人,2021;Zhang et al., 2021b;Gao等人,2022年)。这些结果表明,因果建模显著提高了学习系统的分布鲁棒性和知识迁移能力。
与其他机器学习范式不同,强化学习(RL) (Sutton & Barto, 2018)涉及对环境进行干预,以主动收集训练数据;从这个意义上说,RL与因果关系自然相关。然而,在大多数研究中,智能体只允许干预行动变量,很难完全理解因果关系。这种困难在离线和离线设置中进一步加剧。在强化学习中,智能体旨在获得高回报的数据;因此,他们通过试错不断改进他们的策略。在这个动态过程中,环境通过从当前状态转移到新状态并返回标量奖励(或惩罚)来响应智能体的行动。状态转移和奖励分配都是因果关系;例如,维生素C缺乏(当前状态)会导致坏血病(下一状态),反之则不会。其他环境因素,如食物的味道和外观,不影响这种转变。为了避免受到非因果相关性的困扰,智能体必须捕获驱动底层数据生成过程的因果关系;否则,它将学习效率低下,甚至陷入次优策略。
许多研究人员研究了将因果知识与强化学习结合的原则性方法。最流行的是使用因果图(Glymour et al., 2016),这是因果知识的一种定性形式。因果图可用于表示不区分每个维度含义的高层、粗粒度数据生成过程,例如标准的马尔可夫决策过程(MDP)。同时,因果图还可以传达低层次、细粒度的因果知识,如根据因果关系将状态分解为多个变量。此外,因果知识可以根据结构因果模型(SCM)框架进行定量表示(Pearl, 2009a;b),我们将在第2节中进一步解释。SCM认为数据生成过程是一个有序的方程集合,这些方程以结构化的方式生成数据。正如我们稍后在第4节中演示的那样,配备SCM的强化学习智能体可以直接生成数据,而不与实际环境交互,实现反事实数据增强和策略评估。
本文对因果强化学习的综述提出了该领域的全面概述,在SCM框架内与现有研究保持一致。本文通过回答三个基本问题来介绍因果强化学习:什么是因果强化学习?为什么需要研究它?因果模型如何改进现有的强化学习方法?本文还对因果关系研究和强化学习的基本概念进行了清晰和简洁的概述。据我们所知,这是现有强化学习文献中第一次对因果强化学习的全面综述。
确定了强化学习中的瓶颈问题,这些问题可以通过因果建模的方式解决或改进。进一步提出了一种面向问题的分类方法。这种分类法将帮助强化学习研究人员更深入地了解因果建模的优势和进一步研究的机会。另一方面,强化学习实践者也可以通过确定他们面临的挑战的解决方案,从这项综述中受益。根据现有的技术和设置,对现有的因果强化学习研究进行了比较和分析。
强调了因果强化学习中未解决的主要问题和有希望的研究方向,如理论进展、基准和特定的学习范式。这些研究主题在未来几年将变得越来越重要,并将有助于推进RL在现实世界应用中的使用。因此,在这一新兴领域中,有一个共同的基础来讨论这些有价值的想法是至关重要的,并将促进其持续发展和成功。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“CRL39” 就可以获取《强化学习如何因果化?看最新《因果强化学习》综述论文,39页pdf》专知下载链接